查看原文
其他

字节联合复旦推出LayTextLLM!交错融合布局信息,文档理解能力再创新SOTA

余海洋 PaperWeekly
2024-08-23

©PaperWeekly 原创 · 作者 | 余海洋

单位 | 复旦大学博士生

研究方向 | 大语言模型


引言

在文档理解任务中,目前的主流方案普遍使用端到端的多模态大语言模型。但是,此类方法对图片的输入分辨率有很高的要求,因此需要较强的视觉基座。这也成为了多模态大语言模型(MLLM)在文档理解任务中的瓶颈。


文档理解作为 text-rich 的任务,实际发挥作用的信息大部分都来自于文字语义及其相对的布局信息。因此,利用成熟的 OCR 技术获得文字和布局(Layout)信息(即:文字坐标)并轻量级地扩展 LLM,使其能够根据语义以及 Layout 信息来做预测。该方案也是解决文档理解的一条可行道路[1],即 Layouts as “Lightweight Visual Information”。

论文标题:

LayTextLLM: A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

论文地址:

https://arxiv.org/pdf/2407.01976



相关工作

LayoutLM [2] 是较早期将位置信息融入语言模型的文档理解方法。该方法同时需要借助于 OCR 工具输出的文本及对应位置信息。但是,其作为 Encoder-only 的模型,只能完成 KIE 任务(使用序列标注),在其他任务的泛化能力一般,并且在 Free-form 形式的问答任务上表现较差。


近期,DocLLM [3] 首次提出在 LLM 的基础上加入布局信息的文档理解方案,将正则化后的数值型坐标作为布局信息,并引入解耦的空间注意力机制,促进文本与布局模态之间的交叉对齐。


该方案经过有监督微调(SFT)能够在 VQA 任务上取得与 OCR-free 的 MLLM 相当的性能。此外,得益于融入的布局信息,该方案在 KIE 任务上提升明显,有效解决了生成式模型在 KIE 任务上的短板。但是,该方案采用的 MLM(Masked Language Model)训练方式使得预训练阶段未能与 SFT 阶段的任务较好的对齐,因此其 SFT 后的模型性能也仅能与 MLLM 的 Zero-shot 性能相当。


此外,一些工作 [4,5] 尝试直接将坐标表达为文本 Token 的形式,即 Coordinate-as-Tokens。实验证明,这种表达形式对于 KIE 任务有明显的提升,但此类方法存在如下弊端:(1)需要语言模型对于数值 token 有较好的理解,该能力一般要求模型大小在 30B 以上。(2)使用 Coordinate-as-Tokens 会显著增加输入序列的长度,导致更昂贵的训练和推理的成本,同时也需要较大的语言模型以保证长距离建模能力。



方法(LayTextLLM

针对上述问题,我们提出 LayTextLLM 方案(A Bounding Box is Worth 1 Token: Interleaving Layout and Text in a Large Language Model for Multimodal Document Understanding)

3.1 模型设计

1. 模型依然采用 Interleave 的方式输入文本和布局信息,该方法能最大程度的利用 LLM 自回归的特性。


2. 与此前工作均不同的是,我们使用 Embedding 的方式嵌入布局信息,而非文本token 的形式。该方法有效地规避了 Coordinate-as-Tokens 的长序列以及需借助大参数量模型的缺点。

▲图1 LayTextLLM 模型结构


具体的模型整体架构如上图。待处理的文档图像输入给 OCR 工具完成文本和对应坐标框(采用左上和右下的四维坐标)的识别。其中,文本信息借助于语言模型的 Tokenizer 处理为对应的文本 Token;对于坐标框,我们提出 SLP(Spatial Layout Projector),其简单地使用一个 Linear Projector 将 4 维的正则化坐标映射成高维(即 LLM embedding size)的坐标表示,而后和文字 token 作交错的拼接并送入语言模型。


本文所提出的方法既能高效地表示坐标并减少 Token 数目,同时利用了语言模型自回归特性。此外,在 LLM 部分的设计,我们参考了 InternLM-Xcomposer2,使用 P-LoRA 的路由方式,新增参数量较少。

3.2 训练方式

3.2.1 预训练(Layout-aware Next Token Prediction)

参考传统 LLM 的语言模型预训练,本文采用自回归方式预测整个输入的序列。不同于此前的预训练过程,提出的 Layout-aware Next Token Prediction 预训练方式当遇到需预测坐标占位符的 Token 时(下图中的 “b”),不计算相应 Token 的损失。在预训练阶段,LLM 参数被冻结,仅优化 Layout Projector 和新增的 P-LoRA 参数。得益于所提出的 Self-supervised 的预训练方式,预训练数据非常容易获得。

▲ 图2 LayTextLLM 预训练方式比较

3.2.2 微调(Shuffled-OCR Supervised Fine-tuning)

现有 LLM 使用的主流位置编码 Rotatory Embedding 往往倾向于使得在序列上越接近的 Token,越容易获得更大的 Attention Score。因此,在图 3 的例子中,如果提问 “What is the value of the field Change?”(蓝色框),模型很容易识别出正确结果 “1.30”,因为它在序列中紧挨 “Change” 一词。


然而,对于一个更具挑战性的问题,如 “What is the value of the field Total(RM)?”(红色框),由于 “Total(RM)” 后有多个紧跟输入的数字文本 Token,模型很难确定正确的答案。

▲ 图3 单据布局样例


为了使模型更多的依靠坐标框的布局信息而不是 Rotatory Embedding 提供的位置信息来预测, 在训练过程中,我们随机打乱了 20% 样本的 OCR 输入顺序。其他训练设置与传统 LLM 的 SFT 方式基本一致:给定 Prompt,自回归预测问题的答案序列,且该阶段全部参数参与训练。



实验结果

4.1 实现细节

实验主要基于英文,预训练数据使用 DocBank 全部数据以及 IIT-CDIP Test Collection 1.0 随机采样的部分数据,合计约 1.5M documents。Zero-shot 实验中,数据来自 LayoutLLM 中提供的 Document Dense Description(DDD)and Layout-aware SFT 数据,该数据均为 GPT4 生成的合成数据。SFT 实验中,除 DDD 和 Layout-aware SFT 数据,我们还引入了下游测试数据对应的训练数据。


下游测试数据包含 VQA 任务(DocVQA, InfoVQA, ChartQA, VisualMRC)和 KIE 任务(SROIE, CORD, FUNSD, POIE)。对于所有数据集,我们使用原数据集提供的 word-level 的 OCR 结果,以确保实验的公平性。

4.2 比较OCR-free方案

如图 4 所示(*代表对应数据集的训练数据被使用),对比 OCR-free 的 MLLM 方案,提出的方法在 VQA 和 KIE 的任务上均有大幅度提升。其中,VQA 任务上,提出的方法甚至可以超过 SOTA MLLM 使用 SFT 数据后的性能(+5.1%);KIE 任务上,提出的 LayTextLLM 大幅超过 SOTA MLLM 模型的 Zero-shot 性能(+27%)。


此外,LayTextLLM 经过 SFT 训练后,其性能大幅度提升, 相比于 SOTA MLLM 的 SFT 效果提升近 24%。

▲ 图4 与 OCR-free 方法的性能比较

4.3 比较OCR-based方案

我们还比较了其他 OCR-based 的方案,例如:DocLLM。如图 5 所示,在 VQA 和 KIE 两个任务上,LayTextLLM 的 Zero-shot 效果均与 DocLLM SFT 后的模型效果相当。经过 SFT 后,LayTextLLM 在两类数据集上性能均大幅度超过 DocLLM。具体地,在 KIE 任务中,LayTextLLM 相较于 DocLLM 性能提升超过 15%

▲ 图5 与 OCR-based 方法的性能比较

4.3 输入长度比较

可以看到L ayTextLLM 的输入长度基本小于或者持平 DocLLM,远小于 coor-as-tokens 的方案。图 7 能看出,在输入长度最小的情况下,LayTextLLM 取得更高的精度。

▲ 图6 与 OCR-based 方法的输入长度比较。

▲ 图7 各种方法输入长度 against 精度。

解码回坐标

我们在内部的 KIE 数据集上测试了 LayTextLLM,要求模型以文本格式输出值文本及其对应的边界框,例如 “Oct 10 [66,1,70,15]”。我们发现,要求模型输出坐标提高了精确度,如图 8 所示。


我们任务要求输出坐标,强调了模型需要在输入中搜索对应信息,从而缓解了幻觉问题。此外,模型学会了组合和减去坐标。例如,如果输出文本来自两行 OCR 输入,模型会组合对应的 OCR 坐标。相反,如果输出是输入 OCR 文本的子串,模型将相应地输出调整后的坐标。


 

总结

本文提出 LayTextLLM 用于各类文档理解任务,例如 Document-oriented VQA 和 KIE。在这些任务中,空间布局与文本数据均起至关重要的作用。本文通过引入 Spatial Layout Projector,使模型对布局信息的感知更加精确。


此外,我们设计了两个定制的训练任务(Layout-aware Next Token Prediction 和 Shuffled-OCR Supervised Fine-tuning),旨在提高对文档布局的理解。大量的实验结果也表明 LayTextLLM 在文档理解任务中的有效性。



参考文献

[1] Wang, D., Raman, N., Sibue, M., Ma, Z., Babkin, P., Kaur, S., Pei, Y., Nourbakhsh, A. and Liu, X., 2023. DocLLM: A layout-aware generative language model for multimodal document understanding. arXiv preprint arXiv:2401.00908.

[2] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F. and Zhou, M., 2020, August. Layoutlm: Pre-training of text and layout for document image understanding. In Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining (pp. 1192-1200).

[3] Wang, D., Raman, N., Sibue, M., Ma, Z., Babkin, P., Kaur, S., Pei, Y., Nourbakhsh, A. and Liu, X., 2023. DocLLM: A layout-aware generative language model for multimodal document understanding. arXiv preprint arXiv:2401.00908.

[4] Perot, V., Kang, K., Luisier, F., Su, G., Sun, X., Boppana, R.S., Wang, Z., Mu, J., Zhang, H. and Hua, N., 2023. LMDX: Language Model-based Document Information Extraction and Localization. arXiv preprint arXiv:2309.10952.

[5] He, J., Wang, L., Hu, Y., Liu, N., Liu, H., Xu, X. and Shen, H.T., 2023. ICL-D3IE: In-context learning with diverse demonstrations updating for document information extraction. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 19485-19494).



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

继续滑动看下一个
PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存